Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
ІКНІ
Факультет:
Прикладна лінгвістика
Кафедра:
Системи автоматизованого проектування

Інформація про роботу

Рік:
2024
Тип роботи:
Методичні вказівки до лабораторної роботи
Предмет:
Інформаційні технології

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА” ІНСТИТУТ КОМП’ЮТЕРНИХ НАУК ТА ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ Кафедра “Системи автоматизованого проектування” / ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ДОСТУП ТА РОБОТА З КОРПУСАМИ ТЕКСТІВ. Методичні вказівки до лабораторної роботи № 3 з дисципліни “Комп’ютерна лінгвістика” для студентів спеціальності 8.030005 “Прикладна лінгвістика”. Затверджено на засіданні кафедри “Системи автоматизованого проектування” Протокол № __ від ________ р. на засіданні методичної ради ІКНІ Протокол № _____ від _______ р. ВАК № _____ від ___________ р. Львів-2018 ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ДОСТУП ТА РОБОТА З КОРПУСАМИ ТЕКСТІВ. Методичні вказівки до лабораторної роботи №3 з дисципліни “Комп’ютерна лінгвістика” для студентів спеціальності 8.030005 “Прикладна лінгвістика” для стаціонарної та заочної форм навчання/Укл. Д.В.Корпильов. - Львів: Національний університет ”Львівська політехніка”, 2018. - 28с. Укладачі: Корпильов Д.В., ст. викладач Відповідальний за випуск: Лобур М. В., доктор технічних наук, професор Рецензенти: Каркульовський В. І., канд. техн. наук, доцент Зміст МЕТА РОБОТА 4 КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ 4 1.Доступ до корпусів текстів. 4 1.1. Корпус Гутенберга. 4 1.2 Текст з Інтернету. 8 1.3 Корпус Brown 9 1.4 Корпус інформаційного агентства Рейтер. 10 1.5 Корпус інаугураційних примов президентів США. 11 1.6 Анотовані (розмічені) корпуси текстів. 12 1.7 Корпуси іншомовних текстів. 12 1.8 Структура корпусів текстів. 13 1.9 Доступ до власних корпусів текстів. 14 2. Умовний частотний розподіл. Клас ConditionalFreqDist. 16 2.1 Умови і події. 16 2.2 Підрахунок слів для окремих жанрів. 17 3. Використання текстового редактора при створенні програм. 19 3.1. Поняття функції та модуля. 20 ПОРЯДОК ВИКОНАННЯ РОБОТИ 21 ЗМІСТ ЗВІТУ 23 ЛІТЕРАТУРА 24 ДОДАТОК А 25 ДОДАТОК В 26 МЕТА РОБОТА Вивчення основ програмування на мові Python. Вивчення методів доступу до корпусів текстів. Вивчення класу ConditionalFreqDist. КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ Вирішення задач обробки текстів природною мовою передбачає використання великих об’ємів лінгвістичних даних, або інишими словами передбачає роботу з корпусами текстів. Виконання даної лабораторної роботи допоможе знайти відповідь на наступні питання: які є відомі корпуси текстів та лексичні ресурси і як отримати до них доступ використовуючи Python; які корисні конструкції має Python для виконання цієї роботи. 1.Доступ до корпусів текстів. Корпус текстів це великий набір текстів. Багато корпусів розроблені їз збереженням балансу між текстами різних жанрів, або авторів. В попередній лабораторній роботі ми працювали з промовами президентів США, які є частиною корпуса US Presidential Inaugural Addresses. З промовами ми працювали, як з одним текстом не зважаючи на те, що кожна промова має окремого автора.Обробку ми здійснювали . При роботі з копусами важливо мати засоби доступу як до окремих тексті так і до окремих частин цих тексів а також і до окремих слів. 1.1. Корпус Гутенберга. В NLTK входить невелика частина текстів з електронного архіву текстів Project Gutenberg , який містить 25000 безкоштовних електронних книжок різних авторів (http://www.gutenberg.org/). Тексти творів в окремих файлах. Для одержання назв файлів (ідентифікаторів файлів) в яких зберігаються текстів потрібно використати наступну функцію: Лістинг №1 >>> import nltk >>> nltk.corpus.gutenberg.fileids() ['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt', 'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt', 'whitman-leaves.txt']   Для роботи з пе...
Антиботан аватар за замовчуванням

23.10.2018 19:10

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини